Mientras que los kernels de 1D tratan los datos como una secuencia lineal, Conciencia del diseño 2D cambia el paradigma hacia el procesamiento de estructuras "módulos". El hardware moderno de GPU optimiza el rendimiento agrupando elementos en cuadrículas 2D para maximizar la localidad espacial y aprovechar núcleos especializados de tensores.
1. Más allá del procesamiento por elementos
En 1D, cada hilo calcula un valor escalar. En los kernels 2D de Triton, el programa opera sobre bloques completos simultáneamente. Esto generaliza la suma simple de vectores en transformaciones matriciales complejas como GEMM.
2. Localidad espacial
Entender cómo se cargan en caché los elementos vecinos (horizontales y verticales) es el salto entre kernels educativos y aquellos listos para producción. Esto asegura que, incluso con memoria transpuesta o rellena, el kernel acceda a los datos sin desperdiciar ancho de banda.
3. El camino hacia la producción
El dominio de los diseños 2D permite particionar los datos entre Multiprocesadores de streaming (SMs) de manera eficiente. Por ejemplo, una copia de matriz que reconoce el ancho/alto puede cargar módulos de 16×16 en la memoria rápida integrada, respetando el "salto físico" del tensor.